🎯 Cel Analizy: Celem niniejszego badania jest zidentyfikowanie oraz ocena siły oddziaływania kluczowych determinant cenowych na rynku nieruchomości mieszkalnych w Polsce. Analiza koncentruje się na wielowymiarowym badaniu zależności między cechami fizycznymi lokalu, infrastrukturą otoczenia a ceną transakcyjną. Projekt zakłada dwuetapową weryfikację hipotez: w ujęciu globalnym (dla całego zbioru danych) oraz w ujęciu lokalnym, poprzez szczegółową analizę specyfiki wybranych rynków miejskich (np. Warszawy,Gdańska), co pozwoli na uchwycenie niuansów lokalizacyjnych wpływających na wycenę.
Analiza została przeprowadzona na zbiorze danych zawierającym oferty sprzedaży mieszkań z czerwca 2024 roku.
Źródło danych: [https://www.kaggle.com/datasets/krzysztofjamroz/apartment-prices-in-poland/?select=apartments_pl_2023_08.csv]
Poniższa tabela przedstawia opis zmiennych dostępnych w analizowanym zbiorze danych:
| Nazwa Zmiennej | Opis |
|---|---|
| id | Unikalny identyfikator ogłoszenia |
| city | Miasto, w którym znajduje się nieruchomość |
| price | Cena ofertowa (PLN) |
| squareMeters | Powierzchnia mieszkania w m² |
| rooms | Liczba pokoi |
| floor / floorCount | Piętro mieszkania / Liczba pięter |
| buildYear | Rok budowy budynku |
| type | Rodzaj zabudowy |
| ownership | Forma własności |
| lat / lon | Współrzędne geograficzne |
| centreDistance | Odległość od centrum (km) |
| poiCount | Liczba punktów POI (500m) |
| *Distance | Odległości do: szkół, przychodni itp. |
| has*Parking, Balkon, Winda, Ochrona… | Czy ma dane udogodnienie (TAK/NIE) |
Proces przygotowania danych do analizy został podzielony na kilka kluczowych etapów: definicję reguł poprawności, wstępną walidację, imputację braków danych (metodami statystycznymi i uczenia maszynowego) oraz weryfikację końcową.
Przed przystąpieniem do czyszczenia zdefiniowano zestaw reguł logicznych przy użyciu pakietu validate. Pozwoliło to na identyfikację błędów w surowym zbiorze danych.
Sprawdzono m.in.:
Spójność logiczną: Czy piętro mieszkania nie jest wyższe niż liczba pięter w budynku (Logic_Floor).
Zasady budowlane: Czy w budynkach jednopiętrowych nie zadeklarowano windy (Logic_Elevator).
Wiarygodność cen: Czy cena mieści się w przedziale 100 tys. – 10 mln PLN.
Geolokalizację: Czy współrzędne geograficzne znajdują się w granicach Polski (Bounding Box).
Kompletność dystansów: Czy odległości do punktów POI są wartościami dodatnimi.
Wstępna walidacja wykazała naruszenia, które zostały skorygowane w kolejnych krokach.
Wdrożono wieloetapowy potok przetwarzania danych (pipeline), obejmujący:
Wykluczenie zmiennych buildingMaterial oraz condition. Decyzja ta została podyktowana znacznym stopniem niekompletności danych (brakujące wartości) oraz niską jakością informacji źródłowych, co uniemożliwiało przeprowadzenie rzetelnej analizy statystycznej w tym zakresie.
Imputacja logiczna:
Braki w liczbie pięter (floor) uzupełniono wartością mediany (3) lub wartością floorCount, jeśli była mniejsza niż 3.
Informację o windzie (hasElevator) wywnioskowano na podstawie wysokości budynku (przyjęto, że budynki powyżej 4 pięter posiadają windę).
Imputacja statystyczna (Dystanse): Brakujące odległości do punktów usługowych (*Distance) uzupełniono średnią arytmetyczną obliczoną lokalnie dla każdego miasta.
Imputacja algorytmiczna (kNN): Brakujący rok budowy (buildYear) uzupełniono metodą k-Najbliższych Sąsiadów (kNN), bazując na podobieństwie pod względem liczby punktów POI oraz odległości od centrum.
Do uzupełnienia braków w kluczowej zmiennej kategorycznej type (rodzaj zabudowy) zastosowano model uczenia maszynowego Random Forest (las losowy). Model został wytrenowany na kompletnych obserwacjach (500 drzew decyzyjnych), a następnie wykorzystany do predykcji typu budynku dla brakujących rekordów, co pozwoliło na zachowanie struktury danych lepiej niż proste uzupełnienie dominantą.
Po zakończeniu procesu czyszczenia przeprowadzono:
Ponowną walidację: Sprawdzono zgodność danych z regułami validate.
Analizę braków (naniar): Potwierdzono wyeliminowanie kluczowych braków danych.
Zapis: Przetworzony zbiór danych został zapisany do pliku .RData w celu optymalizacji wydajności raportu.
Rozdział ten stanowi szczegółową analizę zebranych danych, mającą na celu zrozumienie mechanizmów rządzących polskim rynkiem nieruchomości w 2026 roku. Przeprowadzona analiza opisowa pozwala zidentyfikować kluczowe trendy cenowe oraz zrozumieć, jakie czynniki techniczne i lokalizacyjne w największym stopniu kształtują wartość ofert. Dzięki wykorzystaniu miar tendencji centralnej oraz metod wizualizacji, możliwe jest oddzielenie typowych transakcji od zjawisk o charakterze luksusowym czy marginalnym. Stanowi to fundament do dalszych, bardziej zaawansowanych wniosków dotyczących opłacalności inwestycji w konkretnych segmentach rynku.
Rozkład cen cechuje się silną asymetrią prawostronną, z największą koncentracją ofert w przedziale od 500 000 do 850 000 PLN. Dominacja tego segmentu wyznacza rynkowy standard cenowy, podczas gdy oferty powyżej 1,5 mln PLN stanowią nieliczną grupę nieruchomości luksusowych. Wyraźny brak ogłoszeń poniżej 250 000 PLN definiuje wysoki próg wejścia na badany rynek. Obecność wartości odstających, sięgających nawet 3 mln PLN, powoduje, że średnia arytmetyczna jest zawyżona. W konsekwencji to mediana, a nie średnia, najlepiej oddaje realny koszt zakupu typowego mieszkania.
Wykres prezentuje wyraźną korelację dodatnią między liczbą pokoi a ceną nieruchomości, przy czym wraz ze wzrostem metrażu obserwuje się nie tylko wzrost mediany, ale także znaczące rozszerzenie rozstępu międzykwartylowego. Rynek mieszkań 1- i 2-pokojowych charakteryzuje się największą stabilnością i koncentracją cenową, gdzie niski próg wejścia oscyluje wokół 400 000 PLN, natomiast segmenty 3- i 4-pokojowe wykazują silną asymetrię prawostronną z licznymi wartościami odstającymi sięgającymi nawet 3 mln PLN. Obecność tak wysokich wartości ekstremalnych w segmencie średniej wielkości mieszkań świadczy o silnie rozwiniętym rynku premium, który istotnie zawyża średnią arytmetyczną, czyniąc medianę najbezpieczniejszym wskaźnikiem typowej ceny transakcyjnej. W przypadku największych lokali, mających 5 i 6 pokoi, korpusy wykresów stają się znacznie wyższe, co sugeruje, że w tej kategorii liczba pokoi przestaje być dominującym czynnikiem cenotwórczym na rzecz standardu wykończenia i prestiżowej lokalizacji. Całość obrazuje strukturę rynkową, w której ryzyko cenowe i dyspersja ofert rosną progresywnie wraz z wielkością nieruchomości, definiując rynek o wysokim stopniu zróżnicowania jakościowego.
Analiza wykresu skrzypcowego (violin plot) wskazuje na istotne różnice w strukturze cenowej w zależności od typu zabudowy, przy czym segment apartamentowców charakteryzuje się najwyższą medianą cen oraz najbardziej rozciągniętym prawostronnym ogonem rozkładu. W przeciwieństwie do bloków, które wykazują największą koncentrację ofert w węższym przedziale cenowym i relatywnie najniższy próg wejścia, kamienice prezentują specyficzny, dwumodalny charakter rozkładu sugerujący podział na lokale standardowe oraz nieruchomości zrewitalizowane o znacznie wyższej wartości. Największą gęstość prawdopodobieństwa dla wszystkich typów zabudowy obserwujemy w przedziale od 600 000 do 1 100 000 PLN, jednak to apartamentowce wykazują najszerszy rozstęp międzykwartylowy, co świadczy o największym zróżnicowaniu standardu w tej kategorii. Wyraźne wydłużenie „szyjek” wykresów w stronę wartości przekraczających 2 mln PLN, szczególnie widoczne w przypadku kamienic i apartamentowców, potwierdza występowanie silnej asymetrii dodatniej i unikalnych ofert luksusowych, które kształtują górną granicę badanego rynku. Całość zestawienia dowodzi, że o ile blokowiska stanowią najbardziej przewidywalny i jednorodny segment cenowy, o tyle inwestycja w apartamenty lub kamienice wiąże się z większą dyspersją kosztów i obecnością ofert o charakterze wybitnie prestiżowym.
Mapa punktowa ofert prezentuje możliwość oceny koncentracji ofert w miastach wraz z rozkładem cen w odróżnienu od innych miast, ale również dzielnic. Mapa ukazuje różnice cenowe między dzielnicami centralnymi, a obrzeżami zwanymi dzielnicami mieszkalnymi.
Mapa bąbelkowa uwidacznia drastyczne dysproporcje w średnich cenach mieszkań, gdzie dominująca wielkość i ciemny kolor bąbla nad Warszawą wyznacza ogólnokrajowy szczyt cenowy przekraczający 1 000 000 PLN. Wysoki poziom cenowy utrzymuje się również w aglomeracji krakowskiej i trójmiejskiej, podczas gdy mniejsze ośrodki, takie jak Radom czy Częstochowa, reprezentowane są przez jasne punkty sygnalizujące znacznie niższy koszt zakupu nieruchomości. Rozkład ten potwierdza, że kapitał jest silnie skoncentrowany w kilku kluczowych metropoliach, co tworzy wyraźny podział na drogie rynki regionalne i bardziej przystępne cenowo obszary reszty kraju.
Wykres słupkowy prezentuje wyraźną hierarchię cenową polskich miast, w której Warszawa deklasuje pozostałe ośrodki z rekordową średnią stawką przekraczającą 18 000 PLN za m². Drugi segment rynku tworzą Kraków oraz Gdańsk, gdzie ceny oscylują w granicach 15 000 – 17 000 PLN, podczas gdy na przeciwległym biegunie znajdują się Radom i Częstochowa z ofertami poniżej 7 500 PLN za m². Tak duża rozpiętość — sięgająca ponad 150% między stolicą a miastami o najniższych stawkach — obrazuje głębokie rozwarstwienie ekonomiczne kraju i koncentrację popytu inwestycyjnego w kilku kluczowych metropoliach.
Wykres rozrzutu z linią trendu GAM obrazuje złożoną zależność ceny za m² od odległości lokalu od centrum, podważając prosty schemat liniowego spadku wartości wraz z oddalaniem się od rdzenia miasta. Choć najwyższe stawki jednostkowe, przekraczające 25 000 PLN, koncentrują się w bezpośrednim sąsiedztwie centrum (0–2 km), linia trendu wykazuje charakterystyczne falowanie, z lokalnym wzrostem cen w okolicach 10. kilometra, co sugeruje wysoką wycenę prestiżowych dzielnic sypialnianych oraz nowoczesnych osiedli apartamentowych na obrzeżach metropolii. Ogromna chmura punktów poniżej 15 000 PLN, rozciągająca się jednostajnie wzdłuż całej osi odległości, świadczy o szerokiej dostępności lokali o niższym standardzie niezależnie od lokalizacji, podczas gdy wyraźne zwężenie rozkładu powyżej 15 km sygnalizuje ostateczny spadek stawek na terenach podmiejskich. W efekcie wykres dowodzi, że o ile ścisłe centrum generuje rekordowe ceny ofertowe, o tyle wtórne rynki lokalne i segmenty premium poza centrum skutecznie stabilizują średnią cenę za metr kwadratowy na poziomie około 15 000 PLN dla większości badanego obszaru.
Wykres przedstawiający wpływ liczby punktów usługowych (POI) na cenę metra kwadratowego wykazuje wyraźną, nieliniową zależność wzrostową, w której bogatsza infrastruktura otoczenia bezpośrednio przekłada się na wyższą wycenę nieruchomości. Linia trendu GAM sugeruje, że największy przyrost wartości następuje w przedziale od 50 do 130 punktów usługowych, gdzie cena za m² stabilizuje się na poziomie powyżej 20 000 PLN, co odzwierciedla rynkową premię za komfort życia w pełni zurbanizowanych dzielnicach. Największa koncentracja ofert (żółte i pomarańczowe pola) występuje przy niskiej liczbie punktów POI i cenach rzędu 10 000 – 15 000 PLN, natomiast spadek linii trendu powyżej 150 punktów usługowych może sygnalizować nasycenie lub specyfikę bardzo gęstych centrów miast, gdzie hałas i brak prywatności zaczynają ograniczać dalszy wzrost stawek.
Macierz korelacji Pearsona wskazuje na zróżnicowany wpływ poszczególnych zmiennych na cenę za m², przy czym najsilniejszym dodatnim czynnikiem powiązanym z wartością jednostkową nieruchomości jest liczba punktów usługowych (POI) w zasięgu, co potwierdza wysoką rynkową wycenę infrastruktury miejskiej. Co ciekawe, metraż oraz liczba pokoi wykazują słabą korelację ujemną z ceną za m², co sugeruje, że wraz ze wzrostem całkowitej powierzchni mieszkania, stawka za pojedynczy metr kwadratowy ma tendencję do lekkiego spadku. Jednocześnie obserwujemy silne, naturalne współzależności między metrażem a liczbą pokoi (0.82) oraz istotną korelację ujemną między dystansem do centrum a liczbą punktów POI (-0.45), co dowodzi, że im dalej od serca miasta, tym uboższa staje się oferta usługowa, co pośrednio rzutuje na finalną wycenę lokalu.
Powyższy moduł umożliwia dynamiczną segmentację rynku. Manipulując suwakami, można zaobserwować zjawisko elastyczności cenowej: przy zmniejszaniu odległości od centrum (< 3 km), histogram wyraźnie przesuwa się w prawo i spłaszcza, co potwierdza występowanie znacznej premii lokalizacyjnej oraz większe rozwarstwienie cen w prestiżowych dzielnicach.
W niniejszym podrozdziale zestawiono dwa duże rynki w Polsce: stołeczną Warszawę, będącą centrum biznesowym, oraz Gdańsk, pełniący rolę kluczowego ośrodka turystycznego i portowego. Bezpośrednia analiza porównawcza pozwala oszacować “premię stołeczną” oraz zweryfikować, w jakim stopniu segmenty cenowe obu aglomeracji się pokrywają. Zbadanie różnic w rozkładach cen jest kluczowe dla oceny, czy gdański rynek premium stanowi cenową alternatywę dla standardowych inwestycji w stolicy.
Analiza wizualna ujawnia fundamentalne różnice w strukturze obu rynków. Gdańsk (kolor niebieski) charakteryzuje się rozkładem leptokurtycznym (smukłym) – oznacza to wysoką koncentrację ofert w wąskim przedziale cenowym (ok. 600-700 tys. PLN). Rynek ten jest bardziej jednorodny i przewidywalny dla inwestora.
Z kolei Warszawa (kolor czerwony) prezentuje rozkład spłaszczony z wyraźnym przesunięciem w stronę wyższych wartości (mediana ok. 850 tys. PLN). Kluczową obserwacją jest tzw. “gruby ogon” (fat tail) po prawej stronie wykresu. Wskazuje on na znaczący udział segmentu luksusowego w stolicy – oferty powyżej 1,5 mln PLN stanowią tu istotną część rynku, podczas gdy w Gdańsku są zjawiskiem marginalnym. Stołeczny rynek cechuje się więc znacznie większą dyspersją (zróżnicowaniem) cenowym
Interpretacja trendów lokalizacyjnych:
Zestawienie ujawnia fundamentalną różnicę w strukturze przestrzennej obu aglomeracji:
Warszawa (Model Monocentryczny): Wykres po prawej stronie prezentuje klasyczną, ujemną korelację liniową. Najwyższe ceny (>25 tys. PLN/m²) koncentrują się w ścisłym centrum (0-2 km). Wraz ze wzrostem dystansu, cena spada w sposób niemal jednostajny. Jest to podręcznikowy przykład “renty lokalizacyjnej” – im bliżej Pałacu Kultury i Nauki, tym drożej.
Gdańsk (Model Pasmowy / Policentryczny): Wykres po lewej jest znacznie bardziej złożony i przypomina kształtem literę “W”.
0-2 km (Stare Miasto): Wysokie ceny wynikają z walorów turystycznych i historycznych (najem krótkoterminowy).
3-4 km (Lokalne Minimum): Spadek cen w dzielnicach przejściowych (np. Siedlce, Chełm), które są blisko centrum historycznego, ale nie posiadają jego prestiżu.
5-9 km (Drugi Szczyt Cenowy): Krzywa ponownie rośnie. Jest to efekt unikalnej struktury “Centralnego Pasma Usługowego” (Wrzeszcz, Oliwa – będące faktycznym centrum biznesowym aglomeracji) oraz Pasa Nadmorskiego (Przymorze, Żabianka, Jelitkowo). W Gdańsku “centrum” nie jest punktem, lecz osią komunikacyjną biegnącą wzdłuż linii SKM, co sprawia, że lokale położone nawet 8-9 km od historycznego Śródmieścia osiągają wyceny zbliżone do tych ze starówki.
Analiza Przestrzenna Struktury Wieku Tkanki Miejskiej
Powyższa wizualizacja wykorzystuje agregację heksagonalną do zbadania rozkładu przestrzennego inwestycji mieszkaniowych. Zastosowanie mediany roku budowy jako zmiennej koloryzującej pozwala na zniwelowanie wpływu pojedynczych nowych inwestycji w starszych dzielnicach (tzw. plomby) i uwypuklenie dominującego charakteru zabudowy w danym rejonie.
Analiza ujawnia dwa odmienne modele rozwoju aglomeracji:
Warszawa (Model Monocentryczny – “Efekt Obwarzanka”):
Rdzeń (Core): Centrum miasta oraz dzielnice ościenne (Mokotów, Ochota, Żoliborz) charakteryzują się dominacją barw ciemnych (fiolet), co odpowiada starszej tkance historycznej oraz zabudowie z okresu PRL (wielka płyta).
Peryferia: Obserwujemy wyraźny, jasny pierścień okalający miasto. Jest to dowód na silną suburbanizację i zjawisko urban sprawl. Najnowsze inwestycje (jasnożółte klastry, mediana > 2015 r.) są wypychane na obrzeża (Białołęka, Ursus, Wilanów), gdzie dostępność gruntów jest większa, a ich ceny niższe.
Gdańsk (Model Pasmowy / Linearny):
Struktura wieku zabudowy jest skorelowana z główną osią komunikacyjną (SKM / Al. Grunwaldzka). Starsza zabudowa (fiolet) ciągnie się wzdłuż tego pasma oraz w historycznym Śródmieściu.
Ekspansja Południowa: W przeciwieństwie do warszawskiego “pierścienia”, w Gdańsku widzimy silną koncentrację nowych inwestycji (jasne plamy) w jednym, konkretnym kierunku – na południe od obwodnicy (Gdańsk Południe, Jasień), tworząc rozległe, nowoczesne dzielnice sypialniane.
Wniosek: Mapa potwierdza, że w Warszawie “nowe” oznacza “daleko od centrum”, podczas gdy w Gdańsku nowe inwestycje intensywnie wypełniają luki w tkance miejskiej (pas nadmorski) oraz tworzą nowe centrum sypialniane na południu.